C5-4 疑似データを用いたGPT-2による日本語文章の多段階平易化
背景
やさしい日本語
吾輩は猫である→私は猫です
元の文と平易化文のユーザー理解度がマッチしない
専門用語がわからないだけなのに全部ひらがなにされたりすると困る
多段階平易化によってユーザーに合わせた平易化を実現する
Newselaが便利だが日本語はない
SNOWで生成した疑似データで代替した
難易度別の疑似データセットを構築、ファインチューニング
現代日本語書き言葉均衡コーパス
図書館コーパス
教科書コーパス
文書分類のようにファインチューニング
SNOWとGPT-2で平易化文を生成、難易度判定器で推定難易度を測り、分類
疑似データ(生成データ)をそのまま使ったのでノイズあり
同犠牲や類似度を評価して意味的にあきらかにおかしいノイズを除去する
https://gyazo.com/d3be7d74813f481b870dfdee7fde44b4
だいたい学校で習う漢字で難易度が決まっているらしい
https://gyazo.com/303d2b52c9ff7d4560ccee1458e8ef95
https://gyazo.com/64013f3734dd3171b84d72e0d12cad84
https://gyazo.com/873b9148ab516f4b05de958fe28eafca
https://gyazo.com/df24a75a9c65fa4e08225dde4ba18af8
https://gyazo.com/1258591b3f6ed90c4bcb7b6fdd995523